>GPT-3モデル群ではモデルサイズが大きくなるにつれて、シングルホップ質問応答の性能がマルチホップ応答の性能よりも速く向上し、構成性のギャップが減少しない。強力なモデルがより多くの事実知識を記憶・想起する一方で、構成的推論を行う能力には相応の向上が見られないことを示唆しています。